OTTER: Data Efficient Language-Supervised Zero-shot Recognition with Optimal Transport Distillation

CLIPは訓練には400M以上のtext-image対が必要

だが、text-image対にノイズが入っていることが部分的な要因である

対照学習の中でSoft matchを実現するために、online entropic optimal transportを使用

-> 3Mの対で高い性能を達成

少ないデータであっても、richに学習を進めることができる。

infoNCE、Label smoothing、知識蒸留と比較して、Zero-shotでベースラインを上回る。

https://scrapbox.io/files/653b6f5b0bbde8001bb7c67b.png

キャプション・画像が多対多のマッチをすることは一般的であり、GTが唯一というわけではない。

主張

infoNCEは本質的には単位行列（一様分布）と類似度マップ（推定確率）の間の交差エントロピー

単位行列の仮定は一般的でなく、ほかにマッチするもの（ノイズ）

N個の画像-テキスト対のBatchに対し、確率変数$ Y_i \in{1,...,N}を考える。、$ q(Y_i = j|\bm{v}_{1:N},\bm{t}_{1:N})=\alpha I_{ij}+(1-\alpha)M_{ij}

として定式化し、この分布を使いたい。ただし、$ M_{ij} = q_v(Y_i=j|\bm{v}_{1:N},\bm{t}_{1:N})とし、対角成分は0である。

この式の意味するところとして、target分布の正体は、画像がテキストにマッチしない条件付き確率であり、$ \alphaはノイズの小ささを表す。、ほかにマッチするやつが多いほど、0に近い（=ノイズキャプションが多い）

label smoothing手法では、$ M^v_{ij}=\frac{1-I_{ij}}{N-1},\;\;\; \forall i,jとして一様分布を仮定

https://scrapbox.io/files/653b9222a57ed0001b4bb701.png

(from yuwd)

そのような分布をどのように得るか？ -> 最適輸送問題に落とし込む

$ M_{v}^∗ =\text{argmax}_{M∈\mathcal{M}} ⟨M,S _v ⟩ _F +λH(M)

$ S_vは類似度行列、$ v_iから$ t_iへの類似度

この双対問題として、(Culturi+, 13)では以下の正規化指数行列の形になる。

$ M _v^ ∗ =\text{Diag}(r)\text{exp}(S_v /λ)\text{Diag}(c)

$ r, c\in\mathbb{R}^Nは行と列の正規化ベクトル、Sinkhorn-Knoppアルゴリズムによって計算される。

温度パラメータ$ \lambdaは、大きいほどsoftな分布を、小さいほど硬い分布を導く。

類似度行列を以下とする。

$ S _v =γ _v \tilde{Z}_v ^⊤ \tilde{Z}_v +γ_t\tilde{Z}_t ^⊤ \tilde{Z}_t + \tilde{Z}_v^⊤ \tilde{Z}_t −ηI_N

画像同士、テキストどうし、マルチモーダルの類似度、角を減らす

従来の知識蒸留の拡張として、画像同士、テキストどうしの正規化も行う。

結局infoNCEは使っているので、そこをReCoにする？

infoNCEでrigidなものもやっているという意図なのか？

実装

https://scrapbox.io/files/653b727d346d34001bf1f192.png

https://scrapbox.io/files/653b72aa3e0ce6001c9c808d.png